Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której należy większość z jego K najbliższych sąsiadów. Estymator prawdopodobieństwa a posteriori przynależności obserwacji x do klasy k jest wyliczany jako udział obserwacji z tej klasy wśród jej K najbliższych sąsiadów, czyli ˆp(k x) = 1 K n I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L, i=1 gdziex (K) jestk-tymcodoodległościodxpunktemzpróby uczącej, natomiast ρ jest pewną odległością(lub ogólniej miarą niepodobieństwa obiektów).
Klasyfikator Klasyfikator metody K-najbliższych sąsiadów ma zatem postać ˆd KNN (x) =argmaxˆp(k x). k
Klasyfikator Metoda ta ma bardzo wysoką efektywność, gdy liczba obserwacji rośnie nieskończenie. Jednakże w wielu sytuacjach praktycznych liczba dostępnych obserwacji jest niewielka, co często prowadzi do drastycznego spadku efektywności metody najbliższych sąsiadów. nie wymaga estymacji warunkowych funkcji gęstości, jest więc zdecydowanie prostsza w implementacji.
Miary niepodobieństwa Szczególnie ważne w przypadku tej metody jest przyjęcie właściwej odległości, a w zasadzie miary niepodobieństwa obiektów. Definicja Funkcję ρ : X X Rnazywamymiarąniepodobieństwajeśli: 1. ρ(x,y) 0, 2. ρ(x,y) =0wtedyitykowtedy,gdyx =y, 3. ρ(y,x) = ρ(x,y).
Miary niepodobieństwa Określona w ten sposób miara jest semi-metryką na przestrzeni próby.jakwidaćniemusionabyć(choćczęstojest)metryką,tzn. niemusispełniaćwarunkutrójkąta: ρ(x,y) ρ(x,z)+ρ(z,y). Nierówność trójkąta nie jest nam potrzebna do określenia kolejności odległości punktów od x, ponieważ nie interesują nas odległości pomiędzy pozostałymi punktami. Wybór miary niepodobieństwa obiektów jest arbitralny i zależy głównie od charakteru danych.
Miary niepodobieństwa Dla danych ilościowych, jako miarę niepodobieństwa pomiędzy obiektami używa się często zwykłą odległość(metrykę) euklidesową ( p ) 1/2 ρ 1 (x,y) = ((x y) (x y)) 1/2 = (x i y i ) 2 lub jej kwadrat i=1 ρ 2 (x,y) = (x y) (x y) = p (x i y i ) 2. i=1 Zwróćmy uwagę, że druga miara nie jest metryką, ponieważ nie jest dla niej spełniony warunek trójkąta.
Miary niepodobieństwa Jeżeli cechy opisujące obiekty wyrażone są w różnych jednostkach, to w celu zniwelowania ich wpływu możemy zastosować ważoną odległość euklidesową ρ 3 (x,y) = ((x y) W 1 (x y)) 1/2 = ( p i=1 1 w 2 i (x i y i ) 2 ) 1/2, gdziew =diag{w 2 1,...,w2 p },awagiw isąodchyleniami standardowymi poszczególnych cech. Aby miara uwzględniała również korelacje pomiędzy cechami stosujemy jako miarę niepodobieństwa odległość Mahalanobisa ρ 4 (x,y) = ((x y) S 1 (x y)) 1/2, gdzie S jest estymatorem macierzy kowariancji.
Miary niepodobieństwa Rzadziej stosuje się również inne miary niepodobieństwa: Odległość miejska(taksówkowa, manhatańska) ρ 5 (x,y) = p x i y i. i=1 Odległość ta, tak samo jak odległość euklidesowa, jest szczególnym przypadkiemodległościminkowskiegowprzestrzeni R p danej wzorem: ( p ) 1/q ρ(x,y) = x i y i q. i=1
Miary niepodobieństwa (y 1,y 2 ) (x 1,x 2 ) ρ 1 (x,y) = (x 1 y 1 ) 2 +(x 2 y 2 ) 2 ρ 2 (x,y) = (x 1 y 1 ) 2 +(x 2 y 2 ) 2 ρ 5 (x,y) = (x 1 y 1 ) + (x 2 y 2 )
Miary niepodobieństwa Odległość Czebyszewa Odległość Frechéta ρ 6 (x,y) =max 1 i p x i y i, ρ 7 (x,y) = p x i y i 1 1+ x i y i 2 i, i=1 Odległość Canberry ρ 8 (x,y) = p i=1 x i y i x i +y i,
Miary niepodobieństwa Odległość poczty ρ 9 (x,y) = { ρ 2 (x,0)+ρ 2 (0,y), dlax y, 0, dlax =y, Odległość metra 0, dlax =y, ρ 2 (x,y), ρ 10 (x,y) = dlax yorazx,yleżących przez punkt 0, ρ 2 (x,0)+ρ 2 (0,y), pozatym, na jednej prostej przechodzącej
Miary niepodobieństwa (y 1,y 2 ) (x 1,x 2 ) ρ 9 (x,y) =x 2 1 +x2 2 +y2 1 +y2 2
Miary niepodobieństwa (y 1,y 2 ) (z 1,z 2 ) (x 1,x 2 ) ρ 10 (x,y) =x 2 1 +x2 2 +y2 1 +y2 2 ρ 10 (x,z) = (x 1 z 1 ) 2 +(x 2 z 2 ) 2
Miary niepodobieństwa W przypadku danych jakościowych, możemy w naturalny sposób zdefiniować miarę niepodobieństwa obiektów jako ρ 11 (x,y) = 1 p p I(x i y i ). i=1 Miara ta nazywana jest współczynnikiem Sneatha.
Miary niepodobieństwa Na szczególną uwagę zasługuje sytuacja danych binarnych, tzn. takich gdzie każda cecha może przyjmować tylko dwie wartości(0 albo 1). Miara Sneatha przyjmuje wtedy postać ρ 12 (x,y) = b +c p =1 a+d p, gdzie a i d oznaczają liczbę cech zgodnych(1-1, 0-0 odpowiednio), b i c niezgodnych(1-0, 0-1 odpowiednio). Miara ta nosi nazwę współczynnika dopasowania obiektów. Do innych, szczególnie często wykorzystywanych w tej sytuacji, miarniepodobieństwaobiektównależą,statystyka χ 2 ρ 13 (x,y) = oraz współczynnik Jaccarda p(ad bc) 2 (a+b)(c +d)(a+c)(b +d) ρ 14 (x,y) = b +c a+b +c.
Własności graniczne Okazuje się, że metoda najbliższych sąsiadów ma bardzo ciekawe własnościasymptotyczne.niech ε n oznaczabezwarunkoweśrednie prawdopodobieństwo błędu metody najbliższych sąsiadów na n-elementowymzbiorzeiε oznaczabłądbayesowski.dlametody 1-NN zachodzi następująca nierówność: ( ε ε ε 2 L ) L 1 ε, jeśli ε = lim n ε n.
Własności graniczne Górne ograniczenie jest osiągane dla tzw. nieinformującego przypadku, gdzie gęstości we wszystkich klasach są takie same oraz prawdopodobieństwa a priori również są takie same. Kiedy błąd bayesowski jest mały, górne ograniczenie jest w przybliżeniu równe podwojonemu błędowi bayesowskiemu.
Własności graniczne Ponieważ εjestzawszemniejszybądźrówny2ε,przynajmniej połowa informacji klasyfikacyjnej jest zawarta w najbliższym sąsiedzie. Co za tym idzie, żadna reguła klasyfikacyjna, oparta na nieskończonej próbie uczącej, typu najbliższy sąsiad nie poprawi błędu klasyfikacji o więcej niż połowę. Co ważne, zależność powyższa jest prawdziwa bez względu na przyjętą miarę niepodobieństwa.
Własności graniczne Metoda K-NN jest optymalna w sensie błędu bayesowskiego, gdyż jeślin,k orazk/n 0toprawdopodobieństwobłędu metody K-NN dąży do błędu bayesowskiego.
Wybór reprezentatywnego podzbioru obserwacji Wadą metody najbliższego sąsiada jest duży nakład obliczeniowy niezbędny do klasyfikacji każdego obiektu. Jest to związane ze znaczną liczbą obliczeń niezbędną do wyznaczenia odległości między obiektami. W literaturze można znaleźć pewne techniki dokonujące redukcji danych, które likwidują te niedogodności. Należą do nich algorytmy edycyjne oraz algorytmy kondensujące informację. Celem tych pierwszych jest wybór niedużych i jednorodnych skupień obserwacji. Celem natomiast drugiego typu algorytmów jest wybranie jak najmniejszej liczby obserwacji, które dobrze reprezentują klasy(położone są one możliwie blisko brzegów).
Wybór reprezentatywnego podzbioru obserwacji W wyniku tych procedur otrzymuje się pewien podzbiór V zbioru uczącego Z. Do najczęściej wykorzystywanych technik tego rodzaju należy: metoda Harta oraz metoda Wilsona. Pierwsza należy do technik kondensacji, a druga do technik edycyjnych.
Wybór reprezentatywnego podzbioru obserwacji W przypadku metody Harta zaczynamy od zbioru V zawierającego jednąobserwacjęz 1,którajestuznawanazauczącą.DozbioruV przesuwamy, po kolei, obserwacje, które są błędnie klasyfikowane przez metodę 1-NN uczoną na aktualnym zbiorze V. Procedurę powtarzamytakdługo,ażwszystkieobserwacjezezbioruz\vsą klasyfikowane poprawnie. Technika ta ma tendencję do zachowywania obserwacji leżących w pobliżu granic decyzyjnych oraz usuwania obserwacji leżących głębiej.
Wybór reprezentatywnego podzbioru obserwacji W przypadku metody Wilsona wykonywana jest metoda K-NN (proponowanek =3)nazbiorzeZiusuwanesąwszystkie elementy, które zostały błędnie zaklasyfikowane. Pozostałe elementy tworzą zbiór V, na którym powinna być używana metoda 1-NN. Zaskakująco dobre wyniki daje metoda losowej edycji. Polega ona na losowym podziale zbioru uczącego z góry ustaloną ilość razy, przy czym rozmiar zbioru V jest również ustalony. Wynikiem jest zbiór, na którym uzyskano najmniejszą ocenę błędu metodą resubstytucji.